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Поскладово-віземний синтез зовнішньої 
артикуляції для задачі комп'ютерного 
відтворення української жестової мови 


У науковій статті пропонується підхід до синтезу зовнішньої артикуляції для задачі комп'ютерного 
відтворення української жестової мови на тривимірній моделі голови людини без і з урахуванням 
особливості фонетичної структури словоформи. Підхід дозволяє відтворювати артикуляцію губ синхронно 
до анімації жесту з використанням бази морфів візем української мови. Наведена програмна реалізація 
алгоритму підтвердила працездатність запропонованого підходу. 


Вступ 1 постановка задачі 


Жестова мова зазвичай супроводжується артикуляцією губ, яка, разом з емоційни- 
ми проявами на обличчі, є допоміжним каналом передачі інформації (1 |. Так, для людей 
з вадами слуху розуміння мовної інформації покращується при можливості бачити 
обличчя співрозмовника. Дослідження 12) показали, що це справедливо не тільки для 
обличчя реальної людини, а і для синтезованого обличчя аватару, споглядання імітації 
артикуляції якого поліпшує рівень сприйняття природної мови в умовах з низьким 
рівнем співвідношення сигнал-шум. Тому для правильної інтерпретації синтезованої 
жестової мови необхідно враховувати весь інформаційний комплекс, який супроводжує 
жест. Окрім цього, однією з проблем при спілкуванні глухих з іншими людьми є вміння 
сприймати та розуміти усне мовлення, оскільки звичайні люди загалом не знають і не 
вивчають мову жестів. З цього погляду задача синтезу мімічних та артикуляційних проя- 
вів на обличчі є альтернативою мовного спілкування для людей з вадами слуху. 

Питання анімації артикуляції тісно пов'язані з задачами розробки аудіовізуальних 
систем. Але, незважаючи на суттєве просунення у вирішенні задач синтезу візуальної 
складової мовного процесу, комплексно проблема залишається невирішеною, тому що 
існуючі підходи мають локальний характер відповідно до задачі та предметної області 1 
є мовозалежними. Так, розробкою методів моделювання міміки займаються у багатьох 
країнах світу, зокрема в Америці |3|, Швеції |4|, Англії (51, Німеччині |6), |7| та інших 
18), 91, П10). Більшість робіт спрямовані на задачі створення аудіовізуальних систем для 
розробки локалізацій інтелектуальних комп'ютерних інтерфейсів та інтерфейсів для 
мобільних телефонів з синтезом зорової складової мовного процесу людини (деякі з них 
безпосередньо присвячені питанням інтеграції людей з вадами слуху у суспільство |), 
181). Особливості мовленнєвого процесу української мови, зумовлені відмінностями як у 
фонетиці, так і морфології, вимагають перегляду та адаптації існуючих підходів до за- 
дачі відтворення зовнішнього артикуляційного процесу при синтезі української жестової 
мови. З цього погляду дослідження І.К. Білодіда |! 1 | з тематики артикуляційних особ- 
ливостей при промовлянні у сучасній українській літературі та мові можуть бути 
покладені в основу підходу до синтезу міміки та артикуляції в українській жестовій 
мові. А в силу подібності за фонетикою російської мови до української, цінність мають 
роботи А.Л. Воскресенського (121, які направлені на створення цифрового жестівника 
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російської жестової мови. Слід також відзначити результати досліджень | 131, які вилились 
у рекомендації з анімації мімічних проявів та артикуляції при відтворенні розмовної 
англійської та російської мови з використанням 31)-моделі голови людини. 

Крім проблем, пов'язаних з локалізацією мови, мають місце і такі чинники: 

- при відтворенні жестової мови існують деякі особливості зовнішньої артику- 
ляції (наприклад, артикуляція, яка супроводжує жестові одиниці, чи частково, чи зовсім 
не пов'язана з розмовною мовою) (14|; 

-- внаслідок лише логічної відповідності між жестом та фонетичною структурою 
слова, яке має анімуватися артикуляцією, часові проміжки для жестової анімації і ані- 
мації процесу артикуляції чуючої людини можуть відрізняться досить суттєво (151. 

Саме тому, для природності відтворення артикуляції при синтезі жестової мови, на 
відміну від задач аудіовізуального синтезу, необхідно провести синхронізацію артику- 
ляції з анімацією жесту. На практиці сурдоперекладачі природно сповільнюють процес 
вимови на обличчі, коли можуть виникнути запізнення за часом процесу показу жесту 
(час для показу жесту більший, ніж час для артикуляції слова в нормальному темпі). 

Проведений аналіз існуючих робіт з даної тематики визначив напрямок дослід- 
жень і постановку задачі. 

Постановка задачі. Необхідно синтезувати природну артикуляцію для процесу 
візуалізації української жестової мови на тривимірній моделі людини з синхронізацією 
часових проміжків анімації артикуляції та анімації жесту. 

- підхід до синтезу має узгоджуватись з загальною концепцією технології не- 
вербального спілкування людей з вадами слуху; 

-- підхід має враховувати особливості артикуляції при відтворенні української мови. 

Вважається, що кожен жест має своє слово-образ (слово чи набір слів українсь- 
кої мови у нормальній словоформі). 


Синтез жестової мови 


Задача синтезу візуальної складової артикуляційного і мімічного процесу є складо- 
вою задачі синтезу жестової мови 1 буде залежати від підходу до реалізації останньої. 

Можна виділити два принципово різних підходи до синтезу жестової мови: 

1. Статичний. Прикладами можуть слугувати жестівники та тлумачі жестової мови 
з набором жестових одиниць та сталих виразів. Із реченням чи словом розмовної мови 
зіставляється його аналог у жестовій мові. Формат даних: паперовий, відеодиски, про- 
грамні продукти (прикладні програми, інтернет-плагіни та сервіси), які використовують 
відеофайли та анімовані зображення (12). Внаслідок специфіки формату даних та склад- 
ності реалізації плавності переходів такий підхід не дозволяє генерувати чи синтезувати 
жестові речення та нові жестові одиниці окрім тих, що містяться в базі. 

2. Динамічний. Формат даних: відцефровані чи змодельовані рухи та міміка лю- 
дини -- носія жестової мови. При такому підході є можливість використовувати жестові 
одиниці для продукування жестової мови |3), (16). Може використовуватись в системах 
синхронного чи асинхронного сурдоперекладу текстової, мовної чи відеоінформації, 
для створення інтелектуальних інтерфейсів для людей з вадами слуху. 

У зв'язку з розвитком цифрових технологій та потужності (продуктивності) ком- 
п'ютерної техніки особливу цікавість становить другий підхід, який дозволяє створю- 
вати інтелектуальні інтерфейси та гіпермедійні технології і засоби для розробки нав- 
чальних систем і систем штучного інтелекту. 

Основні проблеми і задачі динамічного підходу: 

- для отримання можливості динамічного відтворення жестової мови необхід- 
но мати її формальний опис чи представлення, як, наприклад, для ВЗ5Ї. (ВгійзВ Зієп 
І апрцаре) та рС5 (Сегтап Зієп І априаєе) у форматі Гамбурзької системи нотації 
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(НапМоЗуз Іапецаєе) (10). Формальний опис використовується для розробки алгорит- 
мів та підходів до синтезу речень жестової мови з жестових одиниць. Необхідною для 
розв'язання є задача моделювання людиноподібних переходів при конкатенації 
елементів візуального синтезу (4), 191. 

- моделювання людиноподібного аватару. Використання аватару з високою дета- 
лізацією для моделювання рухів людини з анімацією міміки та артикуляції 1 врахуван- 
ням природних для людини рухів голови під час розмови жестовою мовою (16), (171. 

Тому в роботі (12| відмічається складність створення аватару для продукування 
жестової мови. 

В Україні поки що не створено повного формального опису для української 
жестової мови, який задовольняв би наведеним вимогам. Розробками в даному напрям- 
ку займаються у лабораторії жестової мови | 18|, але дослідження мають методологічний 
характер і направлені на розробку теоретико-методичних засад використання жестової 
мови у навчанні нечуючих та створенні навчальних курсів та методичних посібників 
для навчального процесу з вивчення української жестової мови. Тому для розв'язання за- 
дачі моделювання людиноподібного аватару в роботі (16) авторами запропонована інфор- 
маційна технологія невербального спілкування для людей з вадами слуху, яка містить у 
собі функціональність з синтезу: рухів жестової мови, дактильної абетки, артикуляційної 
й емоційної міміки на тривимірній моделі людини. Елементами для синтезу жестової 
мови виступає множина відцифрованих жестів та відповідних їм нормальних форм слів 
розмовної мови. Формальна модель жестової мови має спрощену структуру, але враховує 
основні вимоги щодо подання жестів, емоцій та артикуляції. Приклад речення жестовою 
і розмовною українською мовами: 

«ІФОТО) ПХТОКЕКЕСАТІУЕ!ХТОПЇ» - «Хто на фото?» 

Для реалізації модуля синтезу правильної міміки й артикуляції на тривимірній 
моделі людини необхідно було вирішити ряд проблем, винесених в постановку задачі 
даної статті. 


Синтез та синхронізація артикуляції 


У задачах анімації мовленнєвого процесу на моделі голови людини існує декілька 
різних підходів до синтезу процесу артикуляції. Класифікація вживаних методів ба- 
зується на відмінностях у типі даних, які доступні для синхронізації: 

- текстові дані: на вхід системи подається текст, який транскрибується в послідов- 
ність фонем. Ця інформація використовується для генерації синтезованої мови та синхро- 
нізації артикуляції; 

- мовні (голосові) дані: на вхід подається звуковий запис мови. Аналізується аудіо- 
файл для отримання послідовності фонем та часових тривалостей (191; 

- комбінований текстово-мовний підхід: текст і його фонетичне подання використо- 
вується для пошуку часових границь мовних сегментів у звуковому сигналі для того, 
щоб отримати інформацію о тривалостях елементів анімації. 

Для задачі синхронізації артикуляції з жестом у роботі пропонується моди- 
фікація комбінованого підходу, яка використовує текстові дані, а також додаткову 
інформацію про часову тривалість звучання фонем та їх часові границі для конкрет- 
ного слова. Цю додаткову інформацію було отримано з даних, занесених в принципи 
роботи звукового синтезатора, реалізованого у технології |6), який використовує ре- 
зультати досліджень І.К. Білодіда (11), та структури подання синтезатором слова. 
Інформація, яка використовується для синхронізації, отримується на етапі обробки 
текстового подання нормальної словоформи відповідно до жесту. Схема процесу об- 
робки наведена на рис. 1. 
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Послідовність 


Слово Синтезатор р." фонем 


Інформація про тривалості фонем у слові 


Послідовність 


р 


подання слова 


Рисунок 1 - Вхідні дані для різних методів 


Приклад роботи віземізатора для вхідної нормальної словоформи «багато» на- 
ведено на рис. 2. 


Віземне подання слова: БАГАТО -» «|ПБМІЛАЦ) | КГХГк(4)АС) | Т'Д'НУ5)О(9)» 


Рисунок 2 - Приклад роботи віземізатора для слова «багато»: де «ПБМ», «А» 
та інші -- назви візем, «|» - границі сегментів, «(7)» - кількість кадрів анімації 
без синхронізації для кожної віземи 


Елементами блоку «віземізатора» є віземи. У роботах (11,, 20) робиться висновок, 
що візуальний алфавіт мови є істотно неповним. У ньому немає однозначної відповід- 
ності між вимовленою фонемою і її візуальним відображенням, що знижує можливості 
зорового сприйняття мови. Фонеми, які виглядають подібними одна до одної, під час 
артикуляції можна віднести до однієї групи, яка називається віземою. Тобто елементами 
візуального алфавіту виступають віземи (віземи для української мови (20). У проведе- 
них дослідженнях використовувалась бібліотека візем для української мови, принципи 
побудови якої було описано в роботі (151. 

Загальна схема процесу синхронізації анімації артикуляції з жестом зображена 
на рис. 3. 


І 

Г слово  77777777717 но. 
і Синтезатор У База жестів ! 
| | 


ї зі . І ї . . І 
б Бібліотека | | Бібліотека | Віземізатор 
1 морфів  :: візем укр. 1 
А - ПИ ПА 
1 емоцій  !! мови 1 


дивна чна ареінбю нініаня Ле онараовнію ера ноя айоя віземне подання слова 


тривалість жесту 
Генератор 


морфів 


Синхронізатор 


Ї значення ф-ції розподілу по кадрах 


Механізми Меш моделі 
відображення голови людини 


Рисунок 3 - Схема синтезу анімації артикуляції 1 міміки 
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Для природності анімації артикуляції пропонується робити синхронізацію шляхом 
деформування часових границь сегментів, що відповідають голосним фонемам. З деяких 
міркувань особливості артикуляції щілинних звуків | 1 1|, до класу фонем, що можуть змі- 
нювати часовий проміжок, також можна включити фонеми, які відповідають віземам «ВФ» 
та «ШЖЧДж», якщо вони стоять на початку слова і наступним іде приголосний звук. 

У дослідженні розглядалось два методи синхронізації з урахуванням і неврахуван- 
ням віземної структури слова. Відмінності будуть відображатися на часових діаграмах. 

Повіземний синтез і синхронізація. Для синхронізації з анімацією жесту змі- 
нюються часові проміжки, які безпосередньо відповідають голосним фонемам. Такий 
підхід мав за мету отримати потрібний результат без додаткових перетворень і враху- 
вання фонемної структури слова, бо голосні фонеми мають яскраво виражений візуаль- 
ний портрет (візему) (11), П13) і зміни в часі звучання не мали би зменшити рівень 
сприйняття візуальної інформації (в даному випадку - артикуляції). 


Тіви 
підгот. і у перех і Увіу/а заверш. 
У У» Уптуо 
по-0 пі п» п» п3 пі поло поМ 


Рисунок 4 - Часова діаграма для повіземного синтезу зі синхронізацією 


Нехай у, - візема, яка стоїть на /-у місці у слові-образі (рис. 4), /" - множина 


голосних візем (віземи голосних фонем), / - множина приголосних візем, Т.,, - час 


зіяєт 
показу жесту, /; - тривалість приголосного звуку 7, г; - тривалість голосного звуку / 


в слові-образі жесту. Усі мовні конструкції промовлялись у нормальному для людини 
темпі. Синтезоване слово зображено послідовністю таких тривалостей, наприклад, 


(4 50515555, ). Поклавши: 


7 у с с : 
іо з й 2 уДнн б ро 2 у ри те Їідг т і ізарім т («і и 1/2 чі І) | ярри 2 (1) 
і / 
с с 
Тих це "А б р г и ри є УДК сі У ес Я У рр 2 (2) 
/ 
Де І ідо з Їзавери 7. ЧАС, НеОбхідний на підготовку м'язів роту для анімації першої віземи, 


- час переходу між віземами , а Т, ,, - 


ап 


та повернення у стан спокою відповідно, / 


перех 
відповідає за загальний час усіх перехідних станів. Час переходу між віземами вва- 
жався однаковим для усіх переходів. 

Тоді послідовність тривалості візем для синтезу зовнішньої артикуляції матиме 
такий вигляд: (1,р'й,б5,р'ї,), де р-Т,, / Тіп - Визначаючи частоту появи кадрів 
со, можна навести характеристики тривалості в кадрах К -|/ о. 

У дослідженнях (15) синхронність до анімації жесту завжди мала місце, але при 
такому підході добре (природно) синтезувались лише слова-образи довжиною 4, 6 фо- 
нем з СУ-складами («ма-ти», «ба-га-то» і таке інше). Нереалістично відображались склад- 
ні слова-образи («покласти», «скільки»). Тому було вирішено враховувати фонетичну 
структуру слова-образу. 
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Поскладовий синтез і синхронізація. Принцип синхронізації, який покладено в 
основу цього підходу, має за своє підгрунтя вдале використання його аналога в задачах 
синхронізації анімації з мовним сигналом (4). Так, кількість фреймів для анімації жесту 
розподіляється між «складами», а не віземами слова-образу. У проведених дослідженнях 
розглядався рівномірний розподіл часу. Під складом 5 розуміється послідовність візем 


(фонем): 5, -КУ; пз ) Їоз-з, - послідовні індекси візем слова подання Ї,, і, 1. При- 


чому для УК, , для складів 5 


збу ВИКОНУЄТЬСЯ НАСТУПНе: Ї,| Є а з! і 2А -(і-ту/2. 


Тобто склади не порожні 1 не перетинаються. 5 - множина складів слова-образу. 


Тава 
підгот склад 1 перехі склад? векладіі- 1/2  аверш 
8 52 Загул 
по 0 п п» п» Пп3 пі2 пі піУМ 


Рисунок 5 - Часова діаграма для поскладового синтезу з синхронізацією 


Особливості перетворення слова синтезатором у фонемне подання (рис. 1) можуть 
призвести до випадків появи «складів» без голосної фонеми. Нехай «склад» називається 
повним, коли в ньому присутня голосна фонема. Множина повних складів познача- 


тиметься 5 не - с |За, Є"), б'"етріае щ 5 -- бсотріне, Нохай: 
та 


Фт 


і з 2 7 Ті кі У ній "і за 7 (3) 
Ка 


зт Є 5 сотрішіе зт Є 5 іпсотрієте 
(291)72-1Ї 
і за - РАД Р оклад, 2 ої -- Їпіда Бо б ей т Зала , (4) 
К 
Таї а Тай уч У ДАБРАНЮ Я пай у рою 2 (5) 


залежить від попереднього і наступного складу, Т, - час, який би 


іпсотріеїте 


де і 


переху 
займала анімація неповних складів. Усі базові часові характеристики - це дані, отри- 
мані від звукового синтезатора без синхронізації до жесту. 

Для врахування синхронізації деформуватися будуть лише повні склади за 
формулою: 


іпсотріете 
и 5 склад, є 5 


А 


сотріете 2 


(6) 


Ї склад, Я" Р "б наді , ра Й 
інше 

При такому підході можна застосовувати алгоритми до анімації візуально-голосо- 
вої мовної інформації (наприклад, (131) в межах складу, не порушуючи синхронність. 

Загальним недоліком обох підходів до синхронізації артикуляції губ з жестом є те, 
що вони не враховують елементи синтезу при невикористанні чи відсутності відповід- 
ного слова-образу. Але це буде несуттєвим, якщо враховувати обмеження задачі пере- 
творення розмовної мови в жестову з використанням лише бази жестових елементів зі 
словами-образами, як у навчальних посібниках для жестової мови (18|. У дослідженнях 
множина жестів була також обмежена жестами, які мають слово-образ, що зумовлено від- 
сутністю наповнення бази морфів унікальними для відтворення жестової мови морфами 
емоційних проявів невербальної природи для передачі додаткової інформації про жест. 
Для включення їх до розгляду та врахування зазначеного недоліку необхідно провести 
додаткові дослідження. 
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Результати експериментальних досліджень 


Для тестування запропонованого підходу було створене відповідне програмне за- 
безпечення мовою СЯ (рис. 6), яке дозволяє дослідити вплив зміни параметрів моделі на 
зрозумілість та розбірливість синтезованої зовнішньої артикуляційної складової мовлен- 
нєвого процесу при відтворенні жестової мови. 

Метою дослідження не була розробка нового 3Д-аватару з власною системою м'язів 
та морфів, тому для тестових прикладів була використана стандартна модель Симон з 
Робег 7 (16|, яка дозволяє реалістично моделювати більшість емоційних проявів на облич- 
чі людини та має функціональність для створення власних морфів з урахуванням рухів 
основних зовнішніх артикуляторів (щелеп, язика) і яка, на відміну від інших програм- 
них засобів (Мауа, 3Ю 5їийіо Мах), була розроблена безпосередньо для комп'ютерного 
моделювання людини. Усі базові віземи та емоційні стани були отримані за допомогою 
функціональності Касе Могрі. Додаткові морфи емоцій було побудовано з використан- 
ням тестової версії програмного продукту КасеСеп МоаєПег (31. 


Рисунок 6 - Головне вікно програмної реалізації 


Для кодування та передачі інформації про мімічний стан моделі голови було роз- 
роблено власний формат даних, який використовується в розробках |16), до складу яко- 
го входить опис мешу 3Ю-моделі з відповідними морфами візем 1 емоцій, що винесені в 
окрему бібліотеку для їх незалежного редагування окремо від самої моделі людини. 


Таблиця 1 - Морфи візем, створені за допомогою Касе Могрі 


У дослідженнях параметрами системи виступали тривалості переходів між візе- 
мами та складами візем, різні варіанти початку та кінця артикуляційного мовлення, 
різні підходи до синхронізації зовнішньої артикуляції з жестом (тривалості показу 
візем), але для спрощення /грех, 7 СОПЗІ , 

Для кожного слова-образу, через обмеження на кількість кадрів анімації, наве- 
дені параметри варіювалися в залежності від часових характеристик елементів його 
структури з метою максимізації кількості кадрів для плавної анімації переходу між 
складами візем (|/,,, - 91) без втрати правильності сприйняття. Для виконання вимоги 


пер 
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синхронізації та невід'ємності часу анімації на формулу 5 накладається обмеження: 
Та 20. (7) 


У дослідженнях г - 33, І 1ї обирались таким чином, щоб анімація з під- 


підгот заверш 

готовки та завершення вимови була природною. При виконанні обмеження (7) єдиним 
додатковим обмеженням параметрів з підготовки і завершення анімації артикуляції буде 
лише таке: щоб кількість кадрів для їх анімації була не менше трьох | 13). Це робиться 
для того, щоб досягти мінімальної плавності переходу від і до стану спокою. При великих 
значеннях цих параметрів аватар буде трохи «втомлено» починати «розмову». Для дея- 
ких слів-образів величини параметрів моделі (3 - 6) наведені у табл. 2. 


Таблиця 2 - Часові параметри тривалості у мілісекундах 


Час | слово-образ «ДАКТИЛЮВАТИ» «ДАТИ» | «БАТЬКО» 
Час початку анімації 0,091 0,15 0,12 
Час анімації переходу 0,105 0,18 0,14 
Час кінця анімації 0,091 0,15 0,12 


На тестовій вибірці з 50 жестів поскладова синхронізація анімації слова-образу з 
жестом виявилась кращою у порівнянні з повіземною синхронізацією без врахування 
фонетичної структури, бо вдалося врахувати пропорційність часу анімації складу в роз- 
мовній мові (точки початку анімації складів розташовуються відповідно до внутрішньої 
будови складу) та можливість робити додаткові модифікації у способах анімації пере- 
ходів у складі без зміни положень точок початку анімації складів. 


ЗБЕУСУСИЬЄММХЄ З ММ 


ПЬБМ А ТДН ІИ 
ран орі и: УЖ» 


а) з врахуванням складової структури слова 


ПЬБМ А ТДН ІЙ 
фури анна не ее "ПО 


6) без врахування 
Рисунок 7 - Приклад послідовності артикуляції слова-образу «мати» 


Вагові коефіцієнти показу візем обчислюються з використанням функції розпо- 
ділу за кадрами (15). Вагові коефіцієнти функції розподілу за кадрами подано графі- 
ками на рис. 3 


13 бункцію розюдіту по кадрам (бл сві коефіцієнти) 


зб 
у 


Віземме подания словаг с | ПІБМІЗІАЦТВ) | РЛУНУВУМО б)» Толі їтаслнає ГЕБ) 


ізюм подання слині с | ПБМІБУАСТВ) | РОЗУМОМ 4)» Тоїі тати Г66). 


6) 


Рисунок 8 - а) з врахуванням складової структури слова, б) без врахування 
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Для аналізу якості результату синтезу використовувалась суб'єктивна модель оцін- 
ки сприйняття, що має за основу оцінку (висновок), отриманий від експерта в галузі 
сурдоперекладу, та оцінку схожості графіків відхилення чотирьох точок, які відпові- 


дають за верхню 7,» нижню Т,, точки роту і кути роту Ті; 1 Ті - Для побудови графі- 


ків відносної зміни точок спостереження аналізувались послідовності віднормованих 
і відорієнтованих зображень областей губ сурдоперекладача і моделі голови людини 
при відтворенні жестової мови (рис. 9). 


1 
ов ов 
об об 
98 од 
ог о2 
9 о 
20 40 во во 100 120 м ри ре бо аз чої баб 


а) 
Рисунок 9 - Для жесту «мама»: а) нормовані відхилення для верхньої точки роту; 
6) для нижньої точки роту 


Висновки 


Наведена програмна реалізація алгоритму поскладово-віземного синтезу підтвер- 
дила працездатність запропонованого підходу до синхронізації анімації артикуляції і ані- 
мації жесту. Запропонований підхід дозволяє проаналізувати вплив зазначених пара- 
метрів часової діаграми анімації слова-образу відповідно до створеної бази візем і емо- 
цій з метою покращення останньої за рахунок розширення чи заміни її складових елемен- 
тів на ті, які поліпшать візуальне сприйняття зовнішньої артикуляції в деяких переходах 
між віземами чи «мовними» конструкціями (складами). 

Подальші дослідження будуть спрямовані на: 

- на врахування різних типів коартикуляції в складах візем української мови 
для покращення природності візуального сприйняття; 

- на використання нерівномірного розподілу часу між складами в залежності 
від його структури і його фонетичних властивостей (наголошеності чи ненаголоше- 
ності і таке інше); 

- на розробку алгоритмів, які будуть враховувати особливості впливу артику- 
ляції наступного звуку іншого складу на попередній. 

Також планується включити до розгляду мімічні прояви та артикуляцію, яка є 
унікальною для жестової мови. 

Задачі синтезу тісно пов'язані з класом задач з розпізнавання зорових образів і 
створення навчальних програм для чуючих людей з метою покращення артикуляції губ 
для їх більш точного розпізнавання. Тому дана робота також мала за мету отримати нові 
знання і додаткову інформацію про природу та механізми артикуляції губ людини при 
відтворенні жестової мови для виявлення прихованих параметрів. Отримані параметри 
будуть використані для проведення подальших досліджень з розпізнавання зовнішньої 
артикуляції мовного процесу |20| з метою створення системи розпізнавання та аналізу 
мімічних проявів на обличчі людини -- носія жестової мови. 
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А.С. Тернов 

Слогово-виземньій синтез внешней артикуляции для задачи компьютерного воспроизведения 
украинской жестовой речи 

В научной статье предлагаєтся подход к синтезу внешней артикуляции для задачи компьютерного 
моделирования украйнской жестовой речи на трехмерной модели головьі человека с учетом особенностей 
фонетического строения слова-образа. Подход позволяет отображать синтезируємую анимацию артикуляций 
губ синхронно с анимацией жеста. Для синтеза используєтся база морфов визем украинского язька. 
Программная реализация алгоритма предложенного подхода показала его работоспособность. 


А.5. Тетпоу 

5уПарбіе-Уїзете З5упіре5із ої Ехіегпаї! Агбісшабіоп їог "пе Ргобіест ої Сотритег Кергодисбіоп 

ої ОКгаїпіап 5ісп Гаприаєе 

Ап арргоасії іо Фе 5упіезі8 ої ехіегпа! апіісціабоп їог Фе ргобіет ої сопариїег гергодисйоп ої ре ОКгаїпіап 
зієп Іапоцаєє їп а геє-дітепзіопа! плоде! ої а ритап Беай ут апа улібоці іакіпе їпіо ассоипі Іваїите5 ої 
ріопейіс 5іласбиге ої ууога Богт8 15 ргорозед їп Бі8 рарег. ТПе арргоасії аЙоууз опе іо гергодисе їпе агіїсціайоп 
ої Пр8 зупспгопоцзіу уліб резішге апітайоп ип5іпо а Чакаба5е ої плогрі5 ої ре ОКгаїпіап Іапецаєе уі5етез. ТРре 
шаріетепіайоп ої ре 5оЙууаге ої ап аїдогійнт дезсгібед ргоуе5 Папсбіопайту ої Фе ргорозед арргоасі. 
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